当期荐读 2021年第3期·特约稿 | 国内语料库研究综述
黄水清1,2 王东波1,2
(1. 南京农业大学信息管理学院, 南京, 210095;
(2. 南京农业大学人文与社会计算研究中心, 南京, 210095)
摘 要
随着大数据和人工智能技术的深入发展,语料库研究得到越来越多的关注和重视。从最开始的面向语言学研究的言语材料集合到如今支撑知识挖掘和发现的深度标注知识资源,语料库及相关研究在深度和广度两方面都得到了充分的探索。本文以国内期刊文献为对象,首先从定量角度分析了我国语料库研究的发文趋势、作者合作态势以及各时代研究热点,然后从定性角度详细梳理并探讨了国内语料库的构建和标注的方法、流程和策略,并阐述了语料库在语言教学、信息检索等领域的应用现状,最后全面梳理了国内具有代表性的各类语料库,并对其建设和发展特点进行了总结和概括。
[关键词]
语料库 语料库构建 平行语料库 语料标注 知识挖掘
上个世纪80年代以来,以语料库为基础的计算语言学与自然语言处理研究得到了极大的发展。不同的国家建立了多种规模、类型、语言的语料库,语料库的加工程度也越来越深化和细致。语料库最早的定义可追溯到1982年美国布朗大学教授法兰西斯(Francis),他认为语料库是一个用于语言分析的文本集合,对某一种语言、方言或语言的某一方面具有代表性[1]。之后,英国伯明翰大学的辛克莱教授(J. Sinclair)也提出了自己对于语料库的定义——语料库是一个自然出现的语言集合,用于反映某一语言的状态和变化[2]。由此可见,早期的语料库主要是用来研究语言的规律、发展和变化的一个集合。随着计算机技术与语言学研究的紧密结合,个别国内学者对语料库提出了新的定义。杨惠中认为语料库是一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库,在计算机网络技术和信息技术快速发展的现代社会,语料库主要指经科学取样和加工的大规模电子文本库[3];何婷婷认为语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料集合[4]。如今,学者们很少有人再给语料库下一个明确的定义,但是,从上面几位学者的定义可以看出,语料库必须是数字化的、有一定规模的、能被计算机程序处理的语料集合。总之,在大数据以及人工智能大行其道的新时代,语料库研究离不开计算机技术的发展,并且在这个背景下语料库研究正在迈向一个新的台阶。
1 国内语料库研究的定量分析
我国语料库的研究起步于上世纪90年代,近30年来,语料库的研究对象从单一的汉语语料库发展到多语种的平行语料库,其研究内容从面向语言学的研究拓展到多领域的知识挖掘和知识发现。可以说语料库是计算机科学和语言学共同发展的纽带和桥梁。为厘清近30年来国内语料库研究的发展脉络和发展方向,笔者以“语料库”为检索词,在CNKI中检索了“北大核心”“CSSCI”以及“CSCD”所收录的核心期刊中的所有论文,总共检出文献5125篇,然后对所获取的数据进行了筛选处理,并对检索到的文献进行一系列的统计分析。
1.1 发文量和发文时间
图1 国内语料库相关文献的年份分布
从图1中可以看到,国内核心期刊关于语料库研究的始于1992年。1991年底,国家语委文字应用管理司在北京召开了现代汉语语料库第一次专家论证会,这次会议的主要内容是制定现代汉语语料库的总体设计、选材原则,以及汉语语料库的规范和标准。此次会议达成了组建现当代汉语语料库以推进我国信息化社会进程的共识,是我国语料库建设与研究的里程碑。不过,1992—2003年这10年间我国语料库相关研究发展缓慢,年平均文献量不超过100篇。之后的10年里,语料库的研究才得到显著的发展,文献量呈现逐年递增的态势。这得益于自然语言处理、大数据和机器学习为语料库的建立和深度挖掘提供了极大的技术支撑。到2013年,我国与语料库研究相关的期刊论文突破350篇,并且在之后的几年基本保持平稳。平稳态势并不意味着语料库研究的停滞,而可能与技术和创新以及国际化研究相关。一些学者倾向于将相关研究发表在国际期刊上,造成了中文期刊关于语料库研究的论文数量保持稳定。总体上来看,我国语料库的研究成果持续增长,在国际化以及技术的发展推动下,未来语料库的研究论文将继续保持增长的态势。
1.2 语料库研究学者合作分布
图2 语料库相关研究学者分布
将检索出的5195篇文献信息导入CiteSpace,绘制了语料库相关研究的作者发文及合作网络图,如图2所示。可以看出,我国关于语料库的研究形成了两个明显独立的社群。社群一是以李生、俞士汶、姚天顺、孙茂孙、黄昌宁等为代表的自然语言处理研究专家。这一社群中的学者是我国语料库研究的开拓者和奠基者,他们从事语料库研究的时间较早,相对于另一社群发文量较少,因为基于自然语言处理技术的语料库研究国际化程度较高,研究成果较多地刊载在外文期刊上。社群二是以卫乃兴、王克非、胡开宝、何安平等为代表的语言学学者。这部分学者对于语料库的研究相较自然语言处理学者研究起步较晚,但是在中文期刊的发文量多于自然语言处理研究的学者。这类学者应用语料库主要进行翻译以及应用语言学研究。除了这两个主要的作者社群外,还有以李培峰、周国栋、朱巧明为代表的语料库研究学者,这一社群的研究者对语料库的研究起步较晚,主要从事基于语料库的自然语言处理、信息抽取等研究,且同属于苏州大学计算机科学与技术学院。由此可见,我国的语料库研究学者之间还是存在学科鸿沟,主要体现在计算机科学与语言学之间,不同领域的学者更倾向于与同学科的学者合作发文,而这两个学科之间的正式学术交流(此处指合作发文)相对较少。
1.3 语料库研究主题演变
图3 语料库研究的主题演变
我国的语料库研究经历了不同的发展阶段,本文根据检索得到的论文关键词,绘制了中文核心期刊中“语料库”相关关键词随时间变化的情况,如图3所示。本文将时间划分为若干个不同的时间段。在第一阶段,语料库的研究热点围绕着自然语言处理、中文信息处理、分词、词性标注、机器翻译等内容开展。第二阶段的研究热点则有人工智能、标注、数据驱动学习等。这两个阶段,计算机自然语言处理技术都起着引领语料库研究的作用。第三阶段,平行语料库、翻译教学、学习者研究等词进入学者的视野,表明以平行语料库为代表的应用语言学研究开始引起了学者的研究兴趣。在第四阶段,条件随机场模型、最大熵分类监督学习模型在分词、标注、分类等自然语言处理问题中得到了广泛的应用。从该阶段开始,与语料库研究紧密相关的关键词更加偏向于自然语言处理与信息挖掘领域。第五阶段的主要热点有文本挖掘、大数据、情感分析等与语料库研究的结合。最近几年,随着深度学习模型的发展,面向语料库研究的自然语言处理得到了广泛的实践和应用,结合领域词典、词向量等不同维度的特征,使得语料库的研究取得了极大的进步。
综上可见,语料库的研究与计算机技术的发展紧密相关,研究主题主要呈现出以下两方面的趋势:一是研究对象从单一到多元的变化,由最开始的汉语单语语料库向着汉英平行语料库、多语种平行语料库、小语种语料库、民族语言语料库以及一些基于领域知识建立的专用语料库发展。这也顺应了我国语料库研究逐渐与国际接轨以及针对中华民族特色领域知识的发展趋势。二是研究技术从最开始的中文信息处理、自然语言处理、语料库语言学等领域相关的总体概念向条件随机场、词向量、情感词典等一系列方法而发展,说明近些年来我国的语料库研究的内容愈发的细致与深化。这些研究同时也是近年来计算机自然语言处理所研究的关键技术和方法。因此,语料库的研究紧跟当今计算机的新技术和新方法,针对领域语料库的研究增多也说明语料库研究的学科壁垒正在被不断突破。
总体而言,近30年来国内语料库的研究呈现迅速发展的态势,受到多学科学者的广泛关注,同领域的学者合作发文较多,但是跨学科之间尤其是语言学与计算机科学之间的合作相对较少。因此,要想构建一个标注完备,并且在构建完成之后充分利用语料库资源进行知识的挖掘和服务,需要加强不同学科之间的合作与交流。现如今,语料库研究已不再是语言学与计算机科学的专属对象,别的学科也在汲取语料库研究的优点,并与领域知识相结合,运用相关的技术和方法,为领域研究提供服务并解决各自领域的特定问题。
2 语料库的研究内容
国内语料库研究从内容上来看,大致可以分为两类:第一种类型的研究围绕语料库的构建展开,在明确语料库构建流程的基础上,以各种领域文本为对象的研究层出不穷,其中面向自然语言处理和知识挖掘的数据标注至关重要,如何在标注深度和效率之间取得平衡成为语料库标注需要解决的关键问题;第二种类型的研究围绕语料库的应用展开,相关研究涉及领域十分丰富,从语言学领域的语言教学,到词汇学领域的词典编纂,再到信息抽取、机器翻译、信息服务等计算机领域的前沿技术,语料库广泛的应用场景体现出其在信息时代宝贵的研究和应用价值。
2.1 语料库的构建
语料库的构建是整个语料库研究的基石,从首个语料库的诞生到现如今语料库的蓬勃发展,从手工语料库到数字化语料库,构建方法、存储方式和应用技术都发生了日新月异的变化。国内的学者对于语料库的构建研究也在不断探索和进步,研究内容主要集中在规范语料库的构建流程、提高语料库数据的标注质量,而这些研究也化解了当前语料库研究中的一些困窘。
2.1.1 规范语料库的构建流程
构建语料库一般需要经过语料库设计、语料采集、数据标注、数据存储、数据更新和维护等步骤,研究者们在语料库构建流程方面有着较为深入的探索。在语料库的设计方面,首先要确定语料库总体构架及其功能模块[5],明确语料库的总体目标、服务对象和服务内容。这些工作是构建语料库的基石。有研究者梳理了标准文献语料库通用构建方法和过程[6],而更多学者们根据不同类型语料库的内容和目的提出了针对性的语料库设计方案。郝晓燕等[7]探讨了中文阅读理解语料库(CRCC)的构建过程,李军辉等[8]提出了实现邮件语料库系统的框架,宋鸿彦等[9]探讨了中国汽车网论坛短评的文本语料库构建流程,杜雪琴等[10]详细介绍了构建小型中医英语口语语料库的过程和方法。其次需要确定语料库语料的来源及语料采集方案。目前,学者们构建语料库的语料来源主要有文献数据库[11]、专业新闻网站[12-14]、用户发布在网络上的产品评论[15]、古籍文本[16]、行业数据库[17-19]等。
除单语语料库外,双语语料库和多语语料库也很早就进入了研究人员的视野,主要包括汉英[20]、汉印[21]、汉俄[22]、汉蒙[23]、汉纳[24]、汉藏[25]等双语语料库构建规范和流程的研究。在多语语料库构建方面,张姝等[26]在2004年就提出多语语料库构建与单语双语类似都需要经过语料收录、加工、标注和编码四个步骤;王成平[27]则对彝、汉、英三语语料库的构建流程和规范制定,特别是对构建过程中的对齐技术展开了深入研究。
数据标注是当前语料库研究中的一个重点及难点,下文将着重介绍。语料库的存储、更新和维护主要通过设计语料库管理程序、开发相应的语料库应用软件来实现。在更新和维护时也会涉及到语料库架构再设计以及语料重新标注的情况。
2.1.2 语料库构建中的数据标注问题研究
在语料库构建过程中,数据标注起着举足轻重的作用。标注质量在很大程度上影响着语料库的质量、语料库的研究成果的准确性以及语料库的使用程度。一般来说,关于语料标注问题的探讨主要集中在语料库的标注粒度以及标注策略和标注方法两方面。
(1)语料库数据标注粒度
语料的标注策略一般是根据语料自身的特征和标注内容的价值所制定的。对生语料进行标注后成为能够进一步研究和利用的熟语料。中文语料最基本的标注策略是分词。汉语分词至今面临着分词歧义、未登录词识别等问题,而词语又是进行检索、挖掘的基本单元,因此,分词是语料库研究的必要步骤[12-14]。此外,有的语料库构建者根据语言知识对语料进行了词性标注[28],这一类语料库对于实体关系挖掘、句法分析等自然语言处理问题提供了优秀的学习语料和测评数据。除了上述两类标注策略外,根据领域的不同和研究问题的导向,如今主流的标注策略是根据学科和研究问题进行相应实体的标注。例如,尤昉等[29]和徐琳宏等[30]均针对标注体系、标注集、标注工具和标注质量的自动控制方面进行了深入研究和探讨,前者主要利用知网语义关系体系成果通过人工标注构建了基于语义依存关系的汉语语料库,后者则构建了多类型文本情感语料库;刘远超等[15]以手机产品为例,详述了细颗粒度产品评论标注原则,标注后的数据存储到数据库中,构建了产品评论语料库;曲春燕等[17]和杨锦锋等[19]等根据中文电子病历特点,构建了较大规模的中文命名实体相关语料库;苏嘉等[31]与专业医生和医学研究人员共同制定了针对中文电子病历的心血管疾病风险因素标注体系,并构建了心血管疾病风险因素标注语料库;曹紫琰等[32]根据语料本身的特点和研究问题提出了不同于以上几种标注粒度的标注方案,并基于对象、属性、极性“三要素”构建了面向情感分析的汽车评论语料库,以利于更细致的情感计算。总之,语料库的应用目标不同使得语料库标注粒度多样化,研究的问题也更加深化和细化,充分发挥了语料库研究的作用和价值。
(2)语料库数据标注策略
目前,数据标注策略主要有人工标注、机器标注和人机结合标注三种,研究者们正在不断地探索和尝试用计算机辅助甚至代替人工标注,降低人工成本,提高标注效率。
人工标注通常指的是依靠标注人员的知识储备和对语料自身的判断,必要时借助相应的知识库进行辅助判断标注内容的方法。这种标注方法一般耗时较多,而且要求标注人员具有一定的领域和行业背景,以实现标注内容的高效性和准确性。现有的一些小型领域语料库依靠人工标注完成。例如,谢家成[33]主要针对个人教学语料库展开研究,并提出了两种语料标注方法;姚源林等[34]和戴敏等[35]分别基于微博和中文产品评论中的情感信息文本,根据相应的情感信息对语料进行标注,并进行语料库的构建;胡韧奋等[36]认为话题在教育教学中是核心内容的体现,并构建了较大规模的对外汉语教学话题语料库;黄一龙等[37]提出了基于子话题事件相关性分类标注规则,以ACE2005中文语料库broadcast news作为语料来源,通过人工标注构建了中文事件相关性语料库;王敬等[38]根据标注词典和经典领域词表选取确定了标注体系和重点多义词,采用人工标注和校对的方式构建了面向汉语二语教学的词义标注语料库。
在人工标注的过程中,学者们会借助一些现有的标注工具和软件提高标注的效率并方便组织和管理标注的语料[39-41]。随着自然语言处理和计算机性能的提升,更多的学者倾向于使用人机结合的方式对语料进行标注。留金腾等[28]通过自动分词和词性标注以及人工校对两个步骤构建了上古分词及词性标注语料库,并运用领域适应方法优化了自动标注过程;张冬瑜等[42]制定了详细的标注策略和流程,并采用人机结合标注方式以多类型感情色彩丰富的文学作品及评论为原始语料,构建了大规模汉英情感隐喻语料库;张亚军等[43]基于已有的中文突发事件语料库(CEC),通过自动生成和人工标注,以事件为知识单元构建了面向事件的中文指代语料库;徐琳宏[44]同样采用人机结合策略,通过引文标注系统辅助构建了较大规模中文文献引文情感语料库;莫天金等[45]根据我国公路桥梁检测特定文本进行了多轮迭代标注实验之后展开正式标注,构建了较大规模的高质量公路桥梁定期检测命名实体语料库。人机结合标注法的优点是减少了标注的工作量,节省了时间成本,且标注一致性较好,减少了歧义判断。但是,人机结合标注方法的缺点也不容忽视,在进行人工校对的过程中,人们往往会依赖自动标注的结果,减少对标注合理性的思考。因此,标注质量可能会存在一些瑕疵,人工参与的减少也可能会忽略语料本身的规律和问题。
除了上述两种标注策略外,学者们一直在朝着实现完全机器标注的方向努力着。李培峰等[46]提出了一种基于网络和Wiki技术的半自动化大规模语料库构建方法;赵世奇等[47]将双语平行语料库通过翻译引擎转换为单语平行语料库,并以此为基础抽取词汇级复述信息自动构建了复述语料库;李纲等[48]通过文本分类算法、文本相似度计算处理原始语料,再将语料应用实体识别技术进行抽取、统计和可视化,最终构建了突发公共卫生事件网络语料库;冯冠军等[49]根据维吾尔语情感表达特点,基于CRFs构建了维吾尔语情感词语料库;张大奎等[50]强调了自然输入分词标记信息在自动构建分词语料库中的重要作用,并获取了优秀用户带有输入标记的文本自动构建了分词训练语料库;李雁群等[51]通过中文维基条目实体分类和嵌套命名实体自动生成过程,基于机器学习算法自动构建了大规模中文嵌套命名实体识别语料库,并在《人民日报》语料上进行了人工标注和机器标注对比实验。但是就目前的研究来看,要实现完全的机器标注,还需要改进非监督学习的性能。并且,完全的机器标注也依托于大量精细的人工标注语料作为学习对象[52]。
另外,针对一些非文本语料库的构建,一般会将数据转写为文本(词语、文档等)进而构建相应语料库[53-54],例如,王艳文[55]构建了一个包括较为完整的英美名家名作语料的英美文学文化“三源泉”语料库,资源丰富,包括文本、图片、音频、视频、网络资源链接等格式。也可以依赖根据数据特征搭建的标注平台或软件,比如ELAN工具等对视频、音频等内容进行复杂标注[56],如Bungeroth等[57]和吴蕊珠等[58]均利用ELAN对视频或图片等内容进行标注,并构建了手语双语语料库。
综上,要想提高语料库标注的质量,首先,应参考和遵循成熟的标注理论和标注策略,并针对语料库的特点改进和提升标注策略;其次,应从多维度的角度出发,实现多种粒度的标注,这样能丰富语料库特征,又能充分发挥语料库的挖掘功能,此外参考一些现有的词典和词库做到标注统一也是提升标注效率的方法之一;最后,应进行多次交叉标注,提升语料标注的一致性和准确性,在不影响标注质量的前提下,还需考虑减少标注的时间成本和人力成本,从最大程度上优化标注过程。
2.2 语料库的应用研究
随着计算机技术的迅猛发展,以语料库为基础的语言学研究取得了丰硕的成果,语料库的应用范围也日益广泛,在语言学研究和自然语言处理中发挥了越来越重要的作用。语料库在建设的过程中涉及多学科,因而其应用也覆盖了多个学科和各个方面。
(1)语料库在语言教学中的应用
语料库在语言教学中的应用是相关研究中不可忽视的一部分。单语语料库在外语尤其是英语教学中的应用已有相当多的研究成果,主要是围绕利用语料库辅助课堂教学,包括英语词汇搭配、句型表达、语法学习、翻译检测、语言校误等。运用语料库进行检索和索引分析,在这个过程中培养发现、分析、解决问题的能力[59]。除用于英语教学的语料库外,也不乏汉语教学的语料库。郑艳群[60]从语料库建设、加工和应用方面总结了语料库技术在汉语教学中取得的成绩,比如在语料库加工中的错别字及语音语料标注技术、语法偏误自动识别技术等。
另外,双语语料库应用于翻译教学也是一种可行的发展方向。韩露等[61]将中医汉英双语平行语料库应用于教学实践,并进行了教学效果对照研究,结果表明,双语平行语料库是一种可靠和高效的方式,对提高学生的专业词汇具有积极的促进作用。在对语料库的规模和功能进行进一步完善后,能在教学中将语料库工具利用到最大化。彭馨葭[62]等介绍了iWeb语料库的特色功能,其中提到,相较于COCA,iWeb除了具备词频表、高频搭配、索引行之外,还具有了类似词典词条的功能,并且可以利用现有语料库的架构构建符合自己研究需求的虚拟语料库,同时,还能通过不同的方式检索词汇,得到特定词表,以期能更高效地为英语教学服务。王克非等[63]认为平行语料库在翻译课堂上能更全面地呈现数据,提升翻译学习的效率,同时通过研究其词性分布、句段长度等还有助于改善译文的评估方式。王克非还通过具体的实例,介绍如何利用基于语料库开发的检索平台开展语料库翻译研究[64]。
(2)语料库在建立领域词表和词典中的应用
基于语料库的辞书编撰是语料库的应用之一,大规模语料库已成为词典编撰的前提和主要工具。除了常见的单语语料库外,双语语料库同样可以为词典的编撰提供客观参考依据,并能提高词典编撰的质量,节约词典编撰的时间。更进一步,基于双语语料库编撰的词典能保证所有的词义、句法信息都得到真实语料库的验证,保证信息的可靠性和准确性。Michael Rundell[65-66]认为如今词典的编撰多以语料库为首要语料来源,语料库为词典编撰者提供了分析词语意义和用法的原始数据。大多数词典通常会借助语料库数据来计算词频、分析词汇的搭配问题等。常宝宝等[67]指出,基于语料库的词典编撰平台主要提供词汇分析功能,具体包括提供词频表、词语检索、检索结果排序、词汇搭配、搭配框架、近义词辨析等。此外,在情感分析中,朱珊珊等[68]在标注的基础上利用形态分析还原和去重的方法构建了相关领域的情感词典。饶洋辉等[69]对基于语料库方法生成的文本情感词典进行了总结,并论述了文本情感词典在情感自动标注和极性分类中的应用。苗祥等[70]基于大规模语料库的统计学习方法,针对几大具体的专业汽车评论网站,为其评论最多的七个汽车特征词构建同一特征词组,通过考察它们的分布规律并逐一构建情感词集对汽车产品进行情感分析。这些词表和词典既具有领域代表性,也可作为其他信息研究的辅助工具。由于情感是抽象且不易描述的,张冬瑜等[42]通过借助大规模汉英双语情感隐喻语料库,构建情感隐喻识别引擎,将其应用在情感类别判定、机器翻译以及外语教学中。
(3)语料库在信息检索和信息抽取中的应用
词典和词表的一个典型应用就是信息检索和信息抽取领域。郝国生等[71]基于语料库构建了语义解释空间原型系统,并将其应用于语义关联词汇检索;张淑静[72]利用语料库在语言描述和分析中常用的主题词检索、索引行分析、语义韵考察及词频统计等手段,通过与动态的社会情境相结合进行了批评话语分析;张敏[73]借助语料库分析工具进行了主题词分析,拓宽了语料库研究方法在文本分析中的适用范围;李淑平[74]通过提取和分析中国学习者英语口语语料库中的主题词和关键主题词,建立词表数据库和主题词分析,实现了个体主体图式的构建;林丽[75]团队自行构建了“越南语军事新闻语料库”,尝试运用框架语义标注方法对语料库进行加工处理,以此抽取特定的事件信息。这里的信息检索不仅仅是指查找信息的搜索行为,而是指广义的信息组织、处理、检索和展示的过程。语料库同时还应用于领域知识图谱的构建[76]、信息检索系统的设计[77]等方面。黄水清[12-14]团队构建的NEPD语料库延续和扩充了之前的人民日报语料,对新的高性能的命名实体识别模型的开发、更精准的语义检索系统和句法分析器的设计有着不可忽视的作用。
(4)语料库在语言对比和翻译研究中的应用
自语料库翻译研究20世纪末兴起以来,我国学者对其进行了诸多研究,尤其是近年来,语料库翻译研究发展很快。孙东云[78]总结了单语语料库在翻译教学中的应用研究现状,继而从BBC汉语语料库的具体用途和教学方式两方面尝试将BCC汉语语料库应用于具体翻译教学中;陈宁等[79]认为建设中医英语语料库能对中医翻译人才的培养起到积极的作用,能为中医药术语翻译提供强有力的支撑。相比单语语料库,双语平行语料库更常应用于语言对比和翻译研究中。平行语料库由于其通常以互译句对的形式出现,句对内部表现为一种对应关系。因此,经过加工与处理的平行语料库通常能应用于多语言对比及翻译研究中。原伟[22]认为其所构建的政治外交领域俄汉平行语料库经短语对应单位抽取后,能应用于双语词典编撰、翻译以及自然语言处理中;张继东等[80]基于英汉平行语料库,对《追风筝的人》的不同译本的翻译风格进行了研究;于红[81]基于平行语料库,比较了《世说新语》原文和英语译本,并深入其具体内容进行了对比分析;王伟[82]针对新闻英语长句翻译问题,利用汉英平行语料库,对汉英句子对应情况进行统计,并探究了其翻译方法;管新潮等[83]借助《资本论》德汉平行语料库,以aufheben一词为例,分析了汉译研究的准确性和严谨性。
(5)语料库在其他领域中的应用
学者们针对不同的学科建造了解决不同学术问题的语料库。鲍玲玲[84]从新闻语体研究、语言教学以及教学模式等方面论述了新闻语料库的广阔发展前景以及对新闻学发展的作用。在教育学领域,吴福焕等[85]认为新加坡教育专用语料库的核心产出为词表与句型表;胡开宝等[86]对我国建设的当代英语教材专用语料库(CECTEC)的建设和应用进行了探讨,认为CECTEC可应用于英语教材课文的组编、内容的编排以及练习册的制订与在线学习平台的研发。在医学领域,齐晖[87]基于自建的医学学术论文英文摘要语料库,探讨了医学学术论文英文摘要中动词的使用特征。在古汉语及先秦文学领域,黄水清等[88]建立了先秦语料库,对典籍中的地名进行了自动识别研究。在语言测试领域,邹绍艳[89]梳理了语料库在国际语言测试领域包括考试开发、考试效度验证、自动评分系统、语言能力表构建四个方面的应用,并详细阐明了语料库在国内英语学习者能力表构建过程中应用的全过程。在实际工作中,语料库也发挥出其优势。翟振等[90]详细介绍了语料库在稿件送审以及语言润色中的应用方式,认为其能辅助编辑提高期刊的学术质量和写作质量。随着阅读行为研究的深入,眼动追踪语料库应运而生。王晓明等[91]通过介绍眼动追踪语料库的内容及各项指标,并对其在认知心理学、应用语言学和计算机科学等领域上的应用研究展开评述。由此可见,语料库研究已经从最初的语言学领域经过发展,扩展到各个学科领域,为不同的研究问题提供了不同的研究基础和数据支撑。未来,语料库的研究将会应用于各个学科领域,实现为不同的学术问题研究提供服务。
综上所述,语料库的应用贯穿于整个信息的生产、组织、标注、检索、挖掘和展示过程,其最终是为用户提供服务。随着人工智能和大数据的迅速发展,作为非结构化数据重要载体的语料库在整个智能知识挖掘的过程中起到了越来越重要的作用。
3 国内代表性的语料库介绍
早在20世纪20年代,我国著名教育学家陈鹤琴在对语料统计的基础上,编写了《语体文应用字汇》,在研究的过程中建立了小规模的汉语文本语料库,这被视作我国现代语料库的雏形[60]。20世纪80年代初,我国语料库建设的目标主要是汉语词汇的统计研究。北京语言大学的前身北京语言学院依托于“现代汉语词汇统计研究”重点科研课题,收录了报刊政论、科技和科普文章、口语材料、文学作品等语料,于1983年构建完成了182万字的汉语语料库。进入20世纪90年代以后,语料库方法在自然语言处理领域得到了广泛的应用,语料库的建设也随之得到快速的发展。通过调研相关的语料库研制单位和查阅相应的参考文献,下文将简单介绍有代表性的语料,并尽可能提供能够使用、下载和获取相应语料库的链接。
3.1 通用单语语料库
目前,国内具有代表性的通用单语语料库以汉语语料库为主,主要包括国家语委现代汉语通用平衡语料库、北京语言大学语料库中心BCC语料库等。除了上述大型通用汉语语料库外,哈尔滨工业大学、南京大学、山西大学等国内研究中文信息处理的单位都分别建立了大规模真实文本的汉语语料库。现将代表性语料库介绍如下:
(1)国家语委现代汉语通用平衡语料库
由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1亿字,语料时间跨度为1919—2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料(http://www.cncorpus.org)。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库[92]。
(2)北京语言大学语料库中心BCC语料库
BCC语料库(http://bcc.blcu.edu.cn/)是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注,中、英文句法树则是引自美国宾州大学的中文和英文树库[93]。
(3)清华TH语料库
清华TH语料库(http://www.openslr.org/18)于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材[94]。经过近年来不断的升级和更新,已更名为THCHS-30语料库。
(4)北京大学CCL语料库
CCL语料库(http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai)中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文学术文献语料库、海外华文网络语料等等[95]。
(5)人民日报标注语料库
该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)[96]。
为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD,http://corpus.njau.edu.cn/,),目前该语料库涵盖了《人民日报》2015年1—5月、2016年1月、2017年1月、2018年1月共9个月的分词语料,并且后续将不断补充最新语料[12-14]。
(6)清华汉语树库(Tshinghua Chinese Treebank,TCT)
该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料[97]。
3.2 汉英双语平行语料库
除了单语语料库外,国内还研发了多个通用双语平行语料库,有代表性的主要包括中国科学院汉英平行语料库、南京大学双语词典研究中心英汉双语平行语料库、清华大学中英平行语料库等。除此之外,中国科学院软件研究所英汉双语语料库包含15万对平行句对,东北大学英汉双语语料库包含100万对平行语句,哈尔滨工业大学英汉双语语料库的句对规模约为50万对。现将代表性语料库介绍如下:
(1)中国科学院汉英平行语料库
中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价[98]。
(2)南京大学双语词典研究中心英汉双语平行语料库(NJU_BDRCBC)
该语料库的总体规模共约200万对英汉平行句对,英语和汉语词例数高达2亿词次,其素材一方面来源于南京大学双语词典中心拥有自主知识产权的双语辞书标准数据以及英汉双语对照文献,另一方面也面向网络获取了大量的英汉双语平行对语料。南京大学双语词典研究中心还跟商务印书馆联合开发了CONULEXID(The Commercial Press and Nanjing University Lexical Database)英汉语言资料库,该语料库系统于1994年正式开始创建,并于1997年通过验收[99]。
(3)清华大学中英平行语料库
清华大学中英平行语料库(http://thumt.thunlp.org/),由清华大学自然语言处理与社会人文计算实验室在国家“863计划”项目“互联网语言翻译系统研制”的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。
3.3 其他汉外平行语料库
除英汉、汉英双语语料库以外,部分机构还推出了其他语种与汉语的双语语料库,主要包括北京大学计算语言研究所双语平行语料库、北京外国语大学双语平行语料库、南京农业大学古代汉语典籍平行语料库等。现将代表性语料库介绍如下:
(1)北京大学计算语言研究所双语平行语料库
该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万句对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料[100]。
(2)北京外国语大学双语平行语料库
由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中[101]。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。
(3)南京农业大学典籍平行语料库
基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库[102-103]。
3.4 其他特色语料库
同时期,国内特定领域的语料库也有一定的发展,具有代表性的有汉语中介语语料库、北京语言大学HSK动态作文语料库、中国传媒大学有声媒体文本语料库等。
(1)汉语中介语语料库
汉语中介语语料库(http://qqk.blcu.edu.cn/#/login)由北京语言大学(原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字[104]。
(2)HSK动态作文语料库
该语料库(http://hsk.blcu.edu.cn/Login)收录了1992—2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等)的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。
(3)中国传媒大学有声媒体文本语料库
该语料库(http://ling.cuc.edu.cn/RawPub/)由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模,并于2016年进行了第三次改版。该语料库包括2008—2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4亿个,并对所有文本进行了自动分词和词性标注。
(4)名著汉英平行语料库
《红楼梦》汉英平行语料库是国内第一个根据译者选用原底本所做的句级对齐平行语料库,它的成功发布可为“红学”不同英译本的研究提供客观科学的平台,为翻译教学提供丰富的资源,为翻译理论探讨提供基本素材[105]。莎士比亚戏剧英汉平行语料库由上海交通大学的学者研究构建,容量约600万字词。该语料库由英文原文和三个版本的译文构成,在分词的基础上实现了词性标注,以及人物对话层面的对齐,该库可以展开一对一及一对多的平行检索,为莎剧翻译研究和语言研究提供了宝贵资源[106]。
(5)少数民族语言语料库
除了汉语相关语料库之外,国内少数民族语言语料库的构建研究工作也正在逐步发展,尤其是蒙古族、维吾尔族、藏族等几个少数民族的语料库。现代蒙古语语料库,由内蒙古大学蒙古语文研究所于1998年构建完成,总规模达500万词,涵盖了文科教材、理科教材、文学、新闻、政治、社会科学、自然科学、口语等类型语料[107]。内蒙古大学蒙古语文研究所在2003年开始建设汉蒙双语语料库,该语料库总规模达10万个句对,为蒙古文信息处理、语言教学、汉蒙双语研究和汉蒙双语词典的编纂等工作的发展奠定了基础[23]。现代维吾尔语语料库,由新疆大学于2002开始建设,生语料规模达800万词[108]。西藏大学大型藏文语料库,总规模高达1.5亿藏文字符,其中3000万藏文字符经过分词和词性标注加工[109]。除此之外,还有200万词的新疆师范大学维吾尔语语料库、规模约1亿3千万字节的西北民族大学大型藏文语料库、500万藏语字符的中国社会科学院民族学语人类学研究所藏语语料库等。
纵观国内语料库的建设进程,其发展特征可以概括如下:①建库所收集的素材来源从现代文学、政治领域报刊文献逐渐拓展至古代文献、网络文献、有声媒体等多种体裁和形式;②语言的种类逐渐增多,少数民族语言的语料库建设工作也正在逐步发展中;③语料库加工的程度逐渐加深,从早期的生语料发展到如今根据不同目的加工而成的熟语料,语料库加工的深度和精度都得到很大的提升;④建库的目的更加多元化,从传统的语言教学到现代的自然语言处理、机器学习,语料库的建设也随之得到进一步的多元发展。
4 结论与展望
本文总结了近30年来我国语料库的研究与建设,从定量和定性两个角度总结概括了语料库的研究变化和研究热点。国内语料库研究具有同领域的学者合作发文较多、跨领域合作者相对较少的特点。尽管语料库研究的跨学科合作较为少见,但是语料库已经悄悄打开了学科壁垒,在自然科学与人文社会科学的研究中都得到广泛的应用。在语料库的构建方面,本文重点强调了语料库的构建流程规范和语料标注问题。目前,语料库构建流程有既定的规范和标准,同时,不同的研究人员针对语料来源、语料所属学科、语料库容量等方面的差异及语料库的其他特征提出了相应的改进方案,使得语料库的构建流程在设计、采集、标注、存储、更新和维护的框架指导下,既具有共性又具有差异性。语料的标注粒度和标注策略是建立语料库的核心和根本。本文总结了提高语料库标注质量的相应方法:一是参考和遵循成熟的标注理论和标注策略,并针对语料库的特点改进和提升标注策略;二是从多维度的角度出发,实现多种粒度的标注,这样既能丰富语料库特征,又能充分发挥语料库的挖掘功能;三是参考现有的词典和词库,做到标注统一也是提升标注效率的方法之一;四是实行多次交叉标注,提升语料标注的一致性和准确性。在不影响标注质量的前提下,应尽量减少标注的时间成本和人力成本。语料库的应用贯穿于整个信息的生产、组织、标注、检索、挖掘和展示过程。同时,随着多领域语料库的建立,语料库的应用也不仅仅局限于语言学以及计算机科学。语料库在教育学、心理学、医学、文学等领域也有相应的代表性应用。此外还应针对语料库建立规范的管理模式并定时进行更新维护,只有保持语料库的活力,才能实现语料库资源的充分利用。尽管目前汉语语料库是我国现有语料库的主要组成部分,但是随着技术和科研水平的提升,我国的语料库也向着规模愈来愈大,资源愈发丰富,功能更加完善,加工程度更加细致,应用目的更加多元化的方向发展。
参考文献
作者简介
黄水清(通信作者), 教授, 博导, 研究方向为文本信息处理与检索、数字图书馆、信息计量, Email:sqhuang@njau.edu.cn;
王东波, 教授, 博导, 研究方向为自然语言处理与文本挖掘、信息计量。
*原文载于《信息资源管理学报》2021年第3期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
黄水清, 王东波. 国内语料库研究综述[J]. 信息资源管理学报, 2021, 11(3): 4-17, 87.
往期 · 推荐
当期荐读 2021年第3期 • 专题前言 | 数据治理制度建设
当期荐读 2021年第3期 | 云环境中学术数据安全事件的风险致因及其检视——以事故致因理论为视角
制版编辑 | 王阿凤
审核 | 于阿媛
长按识别二维码关注我们
信息资源管理学报
微信号
xxzyglxb
分享、在看与点赞
只要你点,我们就是胖友